1 Usa pacman para cargar las librerías e instalarlas si no están disponibles

Todos los ejercicios planteados están relacionados con el uso de las librerías dplyr, tidyr y lubridate. Familiarízate con el uso del operador %>% para facilitar la compresión del código. Los ejercicios consideran que las librería están instaladas y cargadas.

2 Fichero de datos.

Todas las preguntas están referidas al fichero 2024-03-12.Rdata, que contiene información de los registros (logs) de las descargas realizadas del repositorio CRAN en esa fecha. La información contenida en el fichero es la siguiente:

El material está basado en el curso ‘Getting and Cleaning data’ de la librería swirlr

Se pueden descargar ficheros actuales del logs usando la librería https://r-hub.github.io/cranlogs/

  1. Carga el fichero de datos y almacénalo en un data frame llamado mydf. Asegúrate que la opción stringsAsFactors=FALSE. Mira las dimensiones y los primeros datos.

Nota: El siguiente bloque puede tardar en ejecutarse por lo que solo lo ejecutaremos una vez. Después usaremos la selección de registros almacenada en el fichero Rdata.

# Fuente de datos http://cran-logs.rstudio.com/
mydf <- read_csv("./data/2024-03-12.csv")

set.seed(seed=14032024)
N<-200000
I<-sample(1:nrow(mydf),size=N,replace=FALSE)
mydf<-mydf[I,]
# Guardamos en formato binario, la primera vez que cargamos
save(file = './data/2024-03-12.Rdata',list=c('mydf'))

Después de la primera carga poner eval=FALSE en el chunk anterior para acelerar la ejecución.

# Cargamos el fichero binario
load(file ='./data/2024-03-12.Rdata')
dim(mydf)
[1] 200000     10
head(mydf)

mydf %>% head
mydf %>% tail
mydf %>% str
tibble [200,000 × 10] (S3: tbl_df/tbl/data.frame)
 $ date     : Date[1:200000], format: "2024-03-12" "2024-03-12" ...
 $ time     : 'hms' num [1:200000] 48036 63761 70942 43440 ...
  ..- attr(*, "units")= chr "secs"
 $ size     : num [1:200000] 103412 526554 1280374 375281 160694 ...
 $ r_version: chr [1:200000] "4.3.3" "4.3.3" "4.1.2" NA ...
 $ r_arch   : chr [1:200000] "x86_64" "x86_64" "x86_64" NA ...
 $ r_os     : chr [1:200000] "mingw32" "mingw32" "linux-gnu" NA ...
 $ package  : chr [1:200000] "callr" "jquerylib" "colourpicker" "devtools" ...
 $ version  : chr [1:200000] "3.7.5" "0.1.4" "1.3.0" "2.4.5" ...
 $ country  : chr [1:200000] NA "AT" "ET" "GB" ...
 $ ip_id    : num [1:200000] 27 22280 16115 3 6190 ...
mydf %>% dim
[1] 200000     10
  1. Para facilitar el manejo transforma los datos en un tibble as_tibble y almacena el resultado con el nombre cran, y borra el data frame original (usa rm)
# Transformar el data frame en un tibble
cran <- as_tibble(mydf)

# Eliminar el data frame original para liberar memoria
rm(mydf)
  1. Una ventaja de trasformar en tibble es la visualización. Escribe directamente el nombre de la variable y observa la visualización. Posteriormente usa la función glimpse sobre cran y observa el resultado.
# Visualizar el tibble directamente
cran

# Usar la función glimpse para obtener un resumen detallado
glimpse(cran)
Rows: 200,000
Columns: 10
$ date      <date> 2024-03-12, 2024-03-12, 2024-03-12, 2024-03-12, 2024-03-12, 2024…
$ time      <hms> 48036 secs, 63761 secs, 70942 secs, 43440 secs, 5385 secs, 1810 s…
$ size      <dbl> 103412, 526554, 1280374, 375281, 160694, 227646, 1358663, 200365,…
$ r_version <chr> "4.3.3", "4.3.3", "4.1.2", NA, NA, "4.2.0", "4.3.3", "4.3.3", "4.…
$ r_arch    <chr> "x86_64", "x86_64", "x86_64", NA, NA, "x86_64", "x86_64", "x86_64…
$ r_os      <chr> "mingw32", "mingw32", "linux-gnu", NA, NA, "mingw32", "mingw32", …
$ package   <chr> "callr", "jquerylib", "colourpicker", "devtools", "glue", "magrit…
$ version   <chr> "3.7.5", "0.1.4", "1.3.0", "2.4.5", "1.7.0", "2.0.3", "0.5.2", "1…
$ country   <chr> NA, "AT", "ET", "GB", "US", "CN", NA, "US", NA, "KR", "US", "US",…
$ ip_id     <dbl> 27, 22280, 16115, 3, 6190, 42486, 27, 8763, 27, 20, 412, 2157, 27…

3 dplyr

No almacenes el resultado de las operaciones, salvo que sea necesario

  1. Elige únicamente las variables ip_id, package, country
# Seleccionar solo las columnas ip_id, package y country
cran_selected <- cran %>%
  select(ip_id, package, country)

# Ver el resultado
head(cran_selected)
NA
  1. Elige todas las variables entre r_arch y country

cran_range <- cran %>%
  select(r_arch:country)

head(cran_range)
NA
  1. Puedes usar el signo (-) para no coger una columna determinada. Selecciona todas las columnas menos las que están entre date y size
cran_excluded <- cran %>%
  select(-(date:size))

head(cran_excluded)
NA
  1. Elige aquellos registros en los que se haya descargado el paquete plotly, desde un sistema que ejecuta la versión de R 3.5.1
cran_plotly <- cran %>%
  filter(package == "plotly", r_version == "3.5.1")

head(cran_plotly)
NA
  1. Elige aquellas descargas realizadas desde España (ES), con versiones de R superiores a la 3.4.0
cran_es <- cran %>%
  filter(country == "ES", r_version > "3.4.0")

head(cran_es)
NA
  1. Elige aquellas descargas realizadas desde España (ES), o Portugal (PT).
cran_es_pt <- cran %>%
  filter(country %in% c("ES", "PT"))

head(cran_es_pt)
NA
  1. Elige aquellas descargas cuyo tamaño supera los 100500 bytes desde un sistema operativo linux-gnu.
cran_tamano <- cran %>%
  filter(size > 100500, r_os == "linux-gnu")

cran_tamano
  1. Elige aquellas descargas en las que la versión del sistema operativo no está vacía.
descargas_filtradas <- cran %>%
  filter(if_all(everything(), ~ . != ""))
descargas_filtradas
  1. Almacena en cran2 todas las columnas entre size y ip_id.
cran2 <- cran%>%
  select(size:ip_id)
cran2
  1. Ordena cran2 en orden ascendente según la variable ip_id.
cran2_asc <- cran2 %>%
  arrange(ip_id)
cran2_asc
  1. Ordena cran2 en orden descendente según la variable ip_id.
cran2_desc <- cran2 %>%
  arrange(desc(ip_id))
cran2_desc
  1. Ordena cran2 según los valores de package e ip_id.
cran2_ordenada <- cran2 %>%
  arrange(package, ip_id)
cran2_ordenada
  1. Ordena cran2 según los valores de country (ascendente), r_version (desdencente) e ip_id(ascendente).
cran2_ordenada2 <- cran2 %>%
  arrange(desc(r_version), country, ip_id)
cran2_ordenada2
NA
  1. Selecciona el subconjunto formado por las variables, del cran, ip_id, package y size en este orden y almacénalas en cran3.
cran3 <- cran %>%
  select(ip_id, package, size)
  1. Crea una nueva variable en cran3 llamada size_mb que contenga el tamaño de la descarga expresado en Mbytes (\(1Mbyte=2^{20}\) bytes).
cran3 <- cran3%>%
  mutate((size_mb = size / 2^20))
cran3
NA
  1. Sabiendo que 1Gb son \(2^{10}\) Mbytes, crea una nueva variable en cran3 llamada size_gb que contenga el tamaño de la descarga expresado en Gbytes.
cran3 <- cran3 %>%
  mutate(size_gb = size / (2^20 * 2^10))
cran3
  1. Considera que se ha detectado un error en el sistema donde todos los tamaños de las descargas son 1000 bytes menores de lo que corresponde. Crea una nueva variable llamada correct_size con el valor correcto.
cran3 <- cran3 %>%
  mutate(correct_size = size + 1000)
cran3
  1. Usa summarise para determinar el valor medio del tamaño de las descargas realizadas en cran y almacenálo en la variable avg_bytes
avg_bytes <- cran %>%
  summarise(avg_bytes = mean(size, na.rm = TRUE))
avg_bytes

4 Agrupamientos

  1. Crea un agrupamiento del tibble cran según la variable package y almacénalo en la variable by_package. Observa el nuevo elemento creado y aunque aparentemente no hay cambio al principio, se indica que se ha hecho un agrupamiento. Éste agrupamiento se puede deshacer con la función ungroup.
by_package <- cran %>%
  group_by(package)
 by_package

by_package_ungrouped <- by_package %>%
  ungroup()
  1. Usa la función summarise sobre el elemento agrupado y calcula el valor medio de la variable size. Observa el efecto del agrupamiento en el resultado.
  1. Para el agrupamiento creado calcula:

número de elementos; n(), elementos distintos,n_distinct() de la variables ip_id y country, y el la mediana (función stats::median) de la variable size y almacénalos en las variables count, unique, countries y med_bytes respectivamente. El resultado del sumario se almacenará en pack_sum.

  1. Muestra el 1% de los paquetes que han sido más descargados. Para ello puedes utilizar la función quantile(????, probs=0.99). Siendo ??? la variable de interés, que te permitirá estimar el umbral. Los valores por encima serán los que nos interesen. Almacena estos paquetes top descargas en la variable top_counts. NOTA: De ahora en adelante concatena todas las operaciones partiendo del elemento cran, usando pipes.
  1. Repite el apartado anterior utilizando pipes para que finalmente el resultado se ordene, en orden descendente, según el número de descargas (count) y se almacene el la variable top_counts_sorted
  1. En lugar de utilizar el recuento de descargas, es más lógico considerar el número de ordenadores distintos en los que se han descargado las librerías, para ello utilizaríamos la columna unique que cuenta solo una descarga por ordenador, independientemente del número de veces que se descarge una librería. Repite los cálculos considerando esta variable y almacena el resultado en top_unique_sorted.
  1. Completa lo que se indica usando pipes. Selecciona las columnas ip_id, country, package, size de cran y muestra el resultado por pantalla usando print. No es necesario almacenar.
  1. Añade una columna llamada size_mb que contenga el tamaño de cada descarga en megabytes.
  1. Selecciona aquellas descargas cuyo tamaño es menor o igual que 0.5 Mbytes
  1. Repite el apartado anterior ordenando los resultados, en orden descendente según el tamaño en Megabytes y muéstralo por pantalla.

EXTRA. Se desea mostar gráficamente aquellos países que suponen el mayor tráfico de información, ocasionado por el total de descargas acumuladas. Para facilitar la visualización céntrate en aquellos que están por encima del 90 % del top de descargas. El gráfico debe mostrar los valores de forma ordenada de mayor a menor. En el eje X debe aparecer el código de país y en el eje Y el tráfico generado. Intenta hacerlo usando una tubería sin emplear ninguna variable auxiliar. cran%>%...+geom_point()

EXTRA Tal como se indica en el ejercicio, el significado de los códigos usados para la codificación de los paise se pueden obtener de https://dev.maxmind.com/geoip/geoip2/geolite2/. Descarga el fichero GeoLite2 Country en formato CSV. Este fichero contiene información en varios idiomas. Usa GeoLite2-Country-Locations-es.csv que tiene la información en español. Deseamos poder determinar las descargas por continentes por lo que necesitamos añadir esta información a los datos de las descargas almacenados en cran. Procede de la siguiente forma:

5 tidyr.

Carga el fichero de datos datostidyr.Rdata que contiene varios conjuntos de datos que vamos a usar en los siguientes ejercicios.

  1. Observa el data frame students : grade male female 1 A 1 5 2 B 5 0 3 C 5 2 4 D 5 5 5 E 7 4

La columna grade es la calificación y las dos siguientes el número de estudiantes hombre y mujer que han recibido dicha calificación. ¿ Cuáles son las variables ?. Transfórmalo en un conjunto tidy con las variables, grade, sex y count

  1. Considera el conjunto ´students2´, que es similar al primero pero que se han recogido datos correspondientes a dos grupos, (male_1, female_1, etc). Transfórmalo en un conjunto tidy añadiendo una columna adicional correspondiente al grupo (llama a la nueva variable class)
  1. Considera el conjunto students3 y observa por qué no es un tidy data . Las variables finales del conjunto deberían ser: name, class, midterm, final. Dado que un alumno solo puede estar en una de las clases aparecen muchos NA, al reorganizar, usa na.rm=TRUE en las opciones de gather
  1. Considera que la columna class queremos especificarla con valores, 1,2,3,4 y 5 en lugar de class1, …, class5. En librería de importación de datos (readr) se proporcionan funciones que permite identificar y extraer diversos tipos de datos. Son las funciones parse_XXXX. Observa el efecto de aplicar parse_number('class5') y utiliza el resultado para realizar la tarea solicitada.
  1. Observa el conjunto students4 donde se presenta el problema de tener varias observaciones en la misma tabla. Separa el conjunto en dos tablas, una que contenga información relativa a los estudiantes, que llamarás student_info, que no debe contener repeticiones, y otra con las calificaciones y la clave primaria que enlaza ambas tablas(id), que llamarás gradebook.
  1. Consideremos el caso de una observación almacenada en varias tablas. Observa los datos almacenados en failed y passed con la información de los alumnos que suspeden (calificaciones C,D,E,F) y los que aprueban (calificaciones A, B). Debes unir ambos conjuntos en uno que contenga una columna adicional llamada status que indicará passed o failed según la situación de cada alumno, puedes usar la función bind_rows.

6 Pongamos todo en común.

  1. El SAT es un examen popular de preparación para la universidad en los Estados Unidos que consta de tres partes: lectura crítica, matemáticas y escritura. Los estudiantes pueden obtener hasta 800 puntos en cada parte. Este conjunto de datos presenta el número total de estudiantes, para cada combinación de parte y sexo del estudiante. Considera los datos almacenado en sat y haz las transformaciones adecuadas para que las columnas del conjunto tidy sean score_range, part, sex, count en ese orden. Ten en cuenta que los datos totales no es necesario almacenarlos ya que se pueden generar a posteriori.
  1. Utiliza agrupamientos, según las variables part, sex y genera dos nuevas columnas que contengan el número total de estudiantes en dicho grupo, y la proporción dentro del grupo. Almacénalas en las variables total y prop respectivamente.
  1. Representa gráficamente el conjunto obtenido para mostrar las diferencias entre hombres y mujeres, en las diferentes pruebas para cada una de las franjas de calificación.

7 Manejo de fechas con lubridate.

  1. La función today devuelve la fecha actual. Almacéna la fecha actual en this_day, y muéstrala por pantalla. Usa las funciones year, month y day para extraer cada una de las partes. wday para obtener el día de la semana ()
  1. Guarda el instante actual en una variable llamada this_moment con la función now y muéstralo por pantalla. Usa las funciónes hour, minute, second para extraer la información de cada elemento.
  1. La librería lubridate dispone de múltiples funciones para importar en formato fecha datos con un gran variedad de formatos de entrada ymd(), dmy(), hms(), ymd_hms() donde cada letra indica years (y),months (m), days (d), hours (h), minutes (m), y seconds (s). Prueba my_date <- ymd(“2019-02-14”), y determina de que clase es my_date. Las funciones son muy robustas y pueden intepretar correctamente diversos formato. Prueba ymd() para importar la fecha “1989 May 17”. ¿Cómo importarías “March 12, 1975”?
  1. Importa el valor numérico 25081985, sabiendo que el formato es dia, mes, año, y posteriormente 192012 donde se ha almacenado año, mes y día. Modifica el campo fecha en el segundo caso añadiendo algún carácter separador para eliminar la ambigüedad.
fecha<-'19200102'
ymd(fecha)
  1. Almacena la cadena 2014-08-23 17:23:02 en la variable dt1 e impórtala para que incluya la fecha y la hora,posteriormente importa la cadena "03:22:14" (hh:mm:ss)
  1. Importa el vector de fechas almacenado el dt2
  1. Podemos reasingar nuevos valores a una variable fecha/hora con la función update , por ejemplo: update(this_moment, hours = 8, minutes = 34, seconds = 55). Actualiza la variable this_moment creada anteriormente para que contenga la hora actual.
  1. Zonas horarias. Considera que estás en Nueva York, que planeas visitar a un amigo en Hong Kong y que has perdido tu itinerario, pero sabes que tu vuelo sale de Nueva York a las 17:34 (17:34 horas) pasado mañana. También sabes que el vuelo está programado para llegar a Hong Kong exactamente 15 horas y 50 minutos después de la salida. Vamos a reconstruir el itinerario:
---
title: "Carrera Tidyverse. Preguntas Cortas.MARCELINO MARTINEZ"
subtitle: Tratamiento de Datos. Grado en Ciencia de Datos- UV
author: "Marcelino Martínez"
date:  "`r Sys.Date()`"  #Pondría la fecha del día actual
params:
  lang: ES
lang: "`r switch(params$lang, ES = 'es-ES', EN = 'en-US')`"
output:
  pdf_document:
    toc: no
    toc_depth: 3
    number_sections: yes
  html_document:
    echo: yes
    number_sections: yes
    theme: lumen
    toc: yes
  html_notebook:
    echo: yes
    number_sections: yes
    toc: yes
language:
  label:
    fig: 'Figura '
    tab: 'Tabla '
    eq: 'Ecuación '
    thm: 'Teorema '
    lem: 'Lema '
    def: 'Definición '
    cor: 'Corolario '
    prp: 'Proposición '
    exm: 'Ejemplo '
    exr: 'Ejercicio '
    proof: 'Demostración. '
    remark: 'Nota: '
    solution: 'Solución. '
---


```{r setup, cache = F, echo = F, message = F, warning = F, tidy = F,}

# CONFIGURACIÓN GENERAL
library(knitr)
options(width = 100)
# Opciones generales chunks

# PARA GENERAR SOLO LOS ENUNCIADO include=FALSE
opts_chunk$set(echo=F,message = F, error = F, warning = F, comment = NA, fig.align = 'center', dpi = 100, tidy = F, cache.path = '.cache/', fig.path = './figure/', include=FALSE,fig.height=6, fig.width=8)

# PARA Incluir la soluciones SOLO LOS ENUNCIADO include=TRUE
opts_chunk$set(echo=T,message = F, error = F, warning = F, comment = NA, fig.align = 'center', dpi = 100, tidy = F, cache.path = '.cache/', fig.path = './figure/', include=TRUE,fig.height=6, fig.width=8)


```

# Usa `pacman` para cargar las librerías e instalarlas si no están disponibles

```{r,echo=FALSE}

library(pacman)
p_load(dplyr,lubridate)

```

Todos los ejercicios planteados están relacionados con el uso de las librerías **dplyr, tidyr y lubridate**. Familiarízate con el uso del operador **%>%** para facilitar la compresión del código.
Los ejercicios consideran que las librería están instaladas y cargadas.  

# Fichero de datos.

Todas las preguntas están referidas al fichero **2024-03-12.Rdata**, que contiene información de los registros (logs) de las descargas realizadas del repositorio CRAN en esa fecha. La información contenida en el fichero es la siguiente:


* date
* time (in UTC)
* size (in bytes)
* r_version, version of R used to download package
* r_arch (i386 = 32 bit, x86_64 = 64 bit)
* r_os (darwin9.8.0 = mac, mingw32 = windows)
* package
* country, two letter ISO country code. Geocoded from IP using [MaxMind's][https://dev.maxmind.com/geoip/geoip2/geolite2/] free database
* ip_id, a daily unique id assigned to each IP address

El material está basado en el curso 'Getting and Cleaning data' de la librería [swirlr](https://swirlstats.com/) 

Se pueden descargar ficheros actuales del `logs` usando la librería https://r-hub.github.io/cranlogs/

1.  Carga el fichero de datos y almacénalo en un data frame llamado `mydf`. Asegúrate que la opción `stringsAsFactors=FALSE`. Mira las dimensiones y los primeros datos.

**Nota**: El siguiente bloque puede tardar en ejecutarse por lo que solo lo ejecutaremos una vez. Después usaremos la selección de registros almacenada en el fichero Rdata.


```{r,eval=FALSE}
# Fuente de datos http://cran-logs.rstudio.com/
mydf <- read_csv("./data/2024-03-12.csv")

set.seed(seed=14032024)
N<-200000
I<-sample(1:nrow(mydf),size=N,replace=FALSE)
mydf<-mydf[I,]
# Guardamos en formato binario, la primera vez que cargamos
save(file = './data/2024-03-12.Rdata',list=c('mydf'))
```

Después de la primera carga poner **eval=FALSE** en el *chunk* anterior para acelerar la ejecución.

```{r}
# Cargamos el fichero binario
load(file ='./data/2024-03-12.Rdata')
dim(mydf)
head(mydf)

mydf %>% head
mydf %>% tail
mydf %>% str
mydf %>% dim

```
2. Para facilitar el manejo transforma los datos en un tibble `as_tibble` y almacena el resultado con el nombre `cran`, y borra el data frame original (usa `rm`)
```{r}
# Transformar el data frame en un tibble
cran <- as_tibble(mydf)

# Eliminar el data frame original para liberar memoria
rm(mydf)


```
3. Una ventaja de trasformar en tibble es la visualización. Escribe directamente el nombre de la variable y observa la visualización. Posteriormente usa la función `glimpse` sobre `cran` y observa el resultado.
```{r}
# Visualizar el tibble directamente
cran

# Usar la función glimpse para obtener un resumen detallado
glimpse(cran)


```
# dplyr
**No almacenes el resultado de las operaciones, salvo que sea necesario**

4. Elige únicamente las variables `ip_id, package, country`
```{r}
# Seleccionar solo las columnas ip_id, package y country
cran_selected <- cran %>%
  select(ip_id, package, country)

# Ver el resultado
head(cran_selected)

```
5. Elige todas las variables entre `r_arch y country` 
```{r}

cran_range <- cran %>%
  select(r_arch:country)

head(cran_range)

```
5. Puedes usar el signo (-) para no coger una columna determinada. Selecciona todas las columnas menos las que están entre `date y size` 
```{r}
cran_excluded <- cran %>%
  select(-(date:size))

head(cran_excluded)

```
6. Elige aquellos registros en los que se haya descargado el paquete `plotly`, desde un sistema que ejecuta la versión de R 3.5.1
```{r}
cran_plotly <- cran %>%
  filter(package == "plotly", r_version == "3.5.1")

head(cran_plotly)

```
6. Elige aquellas descargas realizadas desde España (ES), con versiones de R superiores a la 3.4.0
```{r}
cran_es <- cran %>%
  filter(country == "ES", r_version > "3.4.0")

head(cran_es)

```

7. Elige aquellas descargas realizadas desde España (ES), o Portugal (PT).
```{r}
cran_es_pt <- cran %>%
  filter(country %in% c("ES", "PT"))

head(cran_es_pt)

```

8. Elige aquellas descargas cuyo tamaño supera los 100500 bytes desde un sistema operativo  `linux-gnu`.
```{r}
cran_tamano <- cran %>%
  filter(size > 100500, r_os == "linux-gnu")

cran_tamano
```
9. Elige aquellas descargas en las que la versión del sistema operativo no está vacía.
```{r}
descargas_filtradas <- cran %>%
  filter(if_all(everything(), ~ . != ""))
descargas_filtradas
```
10. Almacena en `cran2` todas las columnas entre `size` y `ip_id`. 
```{r}
cran2 <- cran%>%
  select(size:ip_id)
cran2
```
11. Ordena `cran2` en orden ascendente según la variable `ip_id`.
```{r}
cran2_asc <- cran2 %>%
  arrange(ip_id)
cran2_asc
```
12. Ordena `cran2` en orden descendente según la variable `ip_id`.
```{r}
cran2_desc <- cran2 %>%
  arrange(desc(ip_id))
cran2_desc
```
12. Ordena `cran2` según los valores de `package e ip_id`.
```{r}
cran2_ordenada <- cran2 %>%
  arrange(package, ip_id)
cran2_ordenada
```
13. Ordena `cran2` según los valores de `country` (ascendente), `r_version` (desdencente) e `ip_id`(ascendente).
```{r}
cran2_ordenada2 <- cran2 %>%
  arrange(desc(r_version), country, ip_id)
cran2_ordenada2

```
14. Selecciona el subconjunto formado por las variables, del `cran`, `ip_id, package y size` 
en este orden y almacénalas en `cran3`.
```{r}
cran3 <- cran %>%
  select(ip_id, package, size)

```

15. Crea una nueva variable en `cran3` llamada `size_mb` que contenga el tamaño de la descarga expresado en Mbytes ($1Mbyte=2^{20}$ bytes).
```{r}
cran3 <- cran3%>%
  mutate((size_mb = size / 2^20))
cran3

```
16. Sabiendo que 1Gb son $2^{10}$ Mbytes, crea una nueva variable en `cran3` llamada `size_gb` que contenga el tamaño de la descarga expresado en Gbytes.
```{r}
cran3 <- cran3 %>%
  mutate(size_gb = size / (2^20 * 2^10))
cran3
```
17. Considera que se ha detectado un error en el sistema donde todos los tamaños de las descargas son 1000 bytes menores de lo que corresponde. Crea una nueva variable llamada `correct_size` con el valor correcto. 
```{r}
cran3 <- cran3 %>%
  mutate(correct_size = size + 1000)
cran3
```
18. Usa `summarise` para determinar el valor medio del tamaño de las descargas realizadas en `cran` y almacenálo en la variable `avg_bytes`
```{r}
avg_bytes <- cran %>%
  summarise(avg_bytes = mean(size, na.rm = TRUE))
avg_bytes
```
# Agrupamientos

19. Crea un agrupamiento del tibble `cran` según la variable `package` y almacénalo en la variable `by_package`. Observa el nuevo elemento creado y aunque aparentemente no hay cambio al principio, se indica que se ha hecho un agrupamiento. Éste agrupamiento se puede deshacer con la función `ungroup`.
```{r}
by_package <- cran %>%
  group_by(package)
 by_package

by_package_ungrouped <- by_package %>%
  ungroup()

```

20. Usa la función `summarise` sobre  el elemento agrupado y calcula  el valor medio de la variable `size`. Observa el efecto del agrupamiento en el resultado.
```{r}

```
21. Para el agrupamiento creado calcula: 
+ . count = n()
+ . unique = n_distinct(ip_id)
+ . countries = n_distinct(country)
+ . avg_bytes = mean(size)

número de elementos; `n()`, 
elementos distintos,`n_distinct()` de la variables `ip_id y country`, y el 
la mediana (función `stats::median`) de la variable `size` y almacénalos en las variables `count, unique, countries y med_bytes` respectivamente. El resultado del sumario se almacenará en `pack_sum`.

```{r}


























```
22. Muestra el 1% de los paquetes que han sido más descargados. Para ello puedes utilizar la función `quantile(????, probs=0.99)`. Siendo ??? la variable de interés, que te permitirá estimar el umbral. Los valores por encima serán los que nos interesen. Almacena estos paquetes **top descargas** en la variable `top_counts`. **NOTA: De ahora en adelante concatena todas las operaciones partiendo del elemento `cran`, usando _pipes_**.
```{r}






```
23. Repite el apartado anterior utilizando **pipes** para que finalmente el resultado se ordene, en orden descendente, según el número de descargas (`count`) y se almacene el la variable `top_counts_sorted`
```{r}









```

24. En lugar de utilizar el recuento de descargas, es más lógico considerar el número de ordenadores distintos en los que se han descargado las librerías, para ello utilizaríamos la columna `unique` que cuenta solo una descarga por ordenador, independientemente del número de veces que se descarge una librería. Repite los cálculos considerando esta variable y almacena el resultado en `top_unique_sorted`.

```{r}








```
25. Completa lo que se indica  usando `pipes`. Selecciona las columnas `ip_id, country, package, size` de `cran` y muestra el resultado por pantalla usando `print`. No es necesario almacenar.

```{r}



```

26. Añade una columna llamada `size_mb` que contenga el tamaño de cada descarga en megabytes.

```{r}



```

27. Selecciona aquellas descargas cuyo tamaño es menor o igual que 0.5 Mbytes
```{r}



```
28. Repite el apartado anterior ordenando los resultados, en orden descendente según el tamaño en Megabytes y muéstralo por pantalla.
```{r}




```
**EXTRA**. Se desea mostar gráficamente aquellos países que suponen el mayor tráfico de información, ocasionado por el total de descargas acumuladas. Para facilitar la visualización céntrate en aquellos que están por encima del 90 % del top de descargas. El gráfico debe mostrar los valores de forma ordenada de mayor a menor. En el eje X debe aparecer el código de país y en el eje Y el tráfico generado. Intenta hacerlo usando una tubería sin emplear ninguna variable auxiliar.
`cran%>%...+geom_point()`

```{r}




```
**EXTRA** Tal como se indica en el ejercicio, el significado de los códigos usados para la codificación de los paise se pueden obtener de https://dev.maxmind.com/geoip/geoip2/geolite2/. Descarga el fichero **GeoLite2 Country** en formato CSV. Este fichero contiene información en varios idiomas. Usa `GeoLite2-Country-Locations-es.csv` que tiene la información en español. Deseamos poder determinar las descargas por continentes por lo que necesitamos añadir esta información a los datos de las descargas almacenados en `cran`. Procede de la siguiente forma:

 + Descarga el fichero de códigos de paises `GeoLite2-Country-Locations-es.csv` e impórtalo en el dataframe `code_paises`. **OJO con la codificación**
 + Carga y almacena la información del fichero de los paises.
 + Elimina todos los registros de `cran` que no incluyan el código del país.
 + Elimina los registros de `code_paises` que no incluyen el código del país.
 + Combina los dos data frames para añadir a `cran` el código del país y el continente, el resto de variables no son necesarias.
 + Representa un diagrama de barras con el flujo de datos, por continente, ordenados de mayor a menor. Expresa el flujo de datos en Terabytes (1Tb=2^40bytes)
 
```{r}













```

# tidyr.
Carga el fichero de datos `datostidyr.Rdata` que contiene varios conjuntos de datos que vamos a usar en los siguientes ejercicios.

29. Observa el data frame `students` :
  grade male female
1     A    1      5
2     B    5      0
3     C    5      2
4     D    5      5
5     E    7      4

La columna `grade` es la calificación y las dos siguientes el número de estudiantes hombre y mujer que han recibido dicha calificación.
¿ Cuáles son las variables ?. Transfórmalo en un conjunto `tidy` con las variables, `grade, sex y count`
```{r}



```
30. Considera el conjunto ´students2´, que es similar al primero pero que se han recogido datos correspondientes a dos grupos, (`male_1, female_1`, etc). Transfórmalo en un conjunto `tidy` añadiendo una columna adicional correspondiente al grupo (llama a la nueva variable `class`)
```{r}




```
31. Considera el conjunto `students3` y observa por qué no es un `tidy data` . Las variables finales del conjunto deberían ser: `name, class, midterm, final`. Dado que un alumno solo puede estar en una de las clases aparecen muchos `NA`, al reorganizar, usa `na.rm=TRUE` en las opciones de `gather`
```{r}




```
32. Considera que la columna `class` queremos especificarla con valores, 1,2,3,4 y 5 en lugar de class1, ..., class5. En librería de importación de datos (`readr`) se proporcionan funciones que permite identificar y extraer diversos tipos de datos. Son las funciones `parse_XXXX`. Observa el efecto de aplicar `parse_number('class5')` y utiliza el resultado para realizar la tarea solicitada.

```{r}






```
33. Observa el conjunto `students4` donde se presenta el problema de tener varias observaciones en la misma tabla. Separa el conjunto en dos tablas, una que contenga información relativa a los estudiantes, que llamarás `student_info`, que no debe contener repeticiones, y otra con las calificaciones y la clave primaria que enlaza ambas tablas(`id`), que llamarás `gradebook`.
```{r}









```
34. Consideremos el caso de una observación almacenada en varias tablas. Observa los datos almacenados en `failed` y `passed` con la información de los alumnos que suspeden (calificaciones C,D,E,F) y los que aprueban (calificaciones A, B). Debes unir ambos conjuntos en uno que contenga una columna adicional llamada `status` que indicará `passed` o `failed` según la situación de cada alumno, puedes usar la función `bind_rows`.
```{r}



```
# Pongamos todo en común.

35. El SAT es un examen popular de preparación para la universidad en los Estados Unidos que consta de tres partes: lectura crítica, matemáticas y escritura. Los estudiantes pueden obtener hasta 800 puntos en cada parte. Este conjunto de datos presenta el número total de estudiantes, para cada combinación de parte y sexo del estudiante. 
Considera los datos almacenado en `sat` y haz las transformaciones adecuadas para que las columnas del conjunto `tidy` sean `score_range, part, sex, count` en ese orden. Ten en cuenta que los datos totales no es necesario almacenarlos ya que se pueden generar a posteriori.

```{r}






```

36. Utiliza agrupamientos, según las variables `part, sex` y genera dos nuevas columnas que contengan el número total de estudiantes en dicho grupo, y la proporción dentro del grupo. Almacénalas en las variables `total y prop` respectivamente.
```{r}









```
37. Representa gráficamente el conjunto obtenido para mostrar las diferencias entre hombres y mujeres, en las diferentes pruebas para cada una de las franjas de calificación.
```{r}












```


# Manejo de fechas con lubridate.

38. La función `today` devuelve la fecha actual. Almacéna la fecha actual en `this_day`, y muéstrala por pantalla. Usa las funciones `year, month y day` para extraer cada una de las partes. `wday` para obtener el día de la semana ()
```{r}







```
39. Guarda el instante actual en una variable llamada `this_moment` con la función `now`
y muéstralo por pantalla. Usa las funciónes `hour, minute, second` para extraer la información de cada elemento.
```{r}





```
40. La librería `lubridate` dispone de múltiples funciones para importar en formato fecha datos con un gran variedad de formatos de entrada `ymd(), dmy(), hms(), ymd_hms()` donde cada letra indica _years (y),months (m), days (d), hours (h), minutes (m), y seconds (s)_. Prueba my_date <- ymd("2019-02-14"), y determina de que clase es `my_date`. Las funciones son muy robustas y pueden intepretar correctamente diversos formato. Prueba `ymd()` para importar la fecha  __"1989 May 17"__. ¿Cómo importarías __"March 12, 1975"__?
```{r}



```
41. Importa el valor numérico `25081985`, sabiendo que el formato es dia, mes, año, y posteriormente `192012` donde se ha almacenado año, mes y día. Modifica el campo fecha en el segundo caso añadiendo algún carácter separador para eliminar la ambigüedad.
```{r}
fecha<-'19200102'
ymd(fecha)




```
42. Almacena la cadena `2014-08-23 17:23:02` en la variable `dt1`  e impórtala para que incluya la fecha y la hora,posteriormente importa la cadena `"03:22:14"` (hh:mm:ss)
```{r}




```
43. Importa el vector de fechas almacenado el `dt2`
```{r}

```
44. Podemos reasingar nuevos valores a una variable fecha/hora con la función `update`
, por ejemplo: `update(this_moment, hours = 8, minutes = 34, seconds = 55)`. Actualiza la variable `this_moment` creada anteriormente para que contenga la hora actual.
```{r}

```
45. __Zonas horarias__. Considera que estás en Nueva York, que planeas visitar a un amigo en Hong Kong y que has perdido tu itinerario, pero sabes que tu vuelo sale de Nueva York a las 17:34 (17:34 horas) pasado mañana. También sabes que el vuelo está programado para llegar a Hong Kong exactamente 15 horas y 50 minutos después de la salida. Vamos a reconstruir el itinerario:
  + Genera la fecha actual, con `now` e indica la zona horaria de Nueva York(America/New_York) (la función `OlsonNames()` devuelve todas las zonas horarias) y almacénala en la variable `nyc`.
  + Añade dos días y almacénalo en la variable `salida`. Puedes usar la función `days` y sumar directamente. Comprueba que la salida tiene el valor correcto.
  + Actualiza la variable salida con la hora real de salida.
  + Averigua a qué hora llegarás a Hong Kong, con referencia horaria de NY.
  + Averigua a qué hora llegarás a Hong Kong, con referencia horaria local. Usa la función `with_tz` para realizar esta tarea.
  + La última vez que viste a tu amigo fue en Singapur el 17 de Junio de 2008. Genera dicha fecha en zona horaria de Singapur y utiliza la funcion `interval` para crear el tramo temporal entre ambas fechas y aplica la función `as.period` sobre el intervalo resultante para calcular exáctamente cuánto tiempo hace desde que os visteis.
  Cuando consideramos zonas horarias, peridos que incluyen años bisiestos, etc. El manejo de fecha requiere de librerías como __lubridate__ para facilitar estas tareas.
  
```{r}









```
  
  

